iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 8
0
AI & Data

AWS 數據處理與分析實戰系列 第 8

Day 8 Glue Data Catalog 教學 - Part 5

  • 分享至 

  • xImage
  •  

延續昨天的步驟繼續將 Crawler 設定完成

4-6. IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue)

https://ithelp.ithome.com.tw/upload/images/20200922/20129236iOFYUnxJZG.png

4-7. Schedul 可以設定 Crawler 是否要定期執行,通常這個會用在需要將新的 Partition 更新到 Table 中時所使用,Partition 之後會有比較詳細的說明,這邊我們先選擇 Run on demand

https://ithelp.ithome.com.tw/upload/images/20200922/20129236YjAC6qJsbS.png

4-8. 點選 Add database 創建一個自己的 DB 這樣資料比較不會混亂,Prefix added to table 的內容會添加到之後創建出來的 Table Name 前面,Table Name 則會是 S3 的資料夾名稱,Prefix added to table 在這邊先維持空白就好,最後點選 Next 後再點選最下面的 Finish 就完成了

https://ithelp.ithome.com.tw/upload/images/20200922/201292366PyWVCHs3r.png

4-9. 回到 Crawlers 的頁面,勾選剛剛創建的 SimpleDataCrawler,再點選 Run crawler,當 Crawler 執行完成時,可以看到 Tables added 的欄位變成 1

https://ithelp.ithome.com.tw/upload/images/20200922/201292365gcwEGbx9B.png

4-10. 回到 Tables 的頁面可以看到 Crawler 所產生的 Table,勾選 order 這個 Table,並點選 Action 中的 View data,接下來要使用 Athena 進行查詢

https://ithelp.ithome.com.tw/upload/images/20200922/20129236onVYkOTXyu.png

  1. Athena 查詢教學
    5-1. 進到 Athena 後有可能無法查詢,會看到以下這個畫面,或是點選右上角的 Setting 進到這個頁面,請先回到 S3 創建一個 Bucket(可以參考步驟 2-1) 讓 Athena 可以存放查詢結果,再填入 S3 路徑時最後一個斜線(/)記得要補上不然無法設定成功

https://ithelp.ithome.com.tw/upload/images/20200922/201292366UpCSzxNIX.png
https://ithelp.ithome.com.tw/upload/images/20200922/20129236ie5oJ9m6Hn.png


上一篇
Day 7 Glue Data Catelog 教學 - Part 4
下一篇
Day 9 Glue Data Catalog 教學 - Part 6
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言